To facilitate research on text generation, this paper presents a comprehensive and unified library, TextBox 2.0, focusing on the use of pre-trained language models (PLMs). To be comprehensive, our library covers $13$ common text generation tasks and their corresponding $83$ datasets and further incorporates $45$ PLMs covering general, translation, Chinese, dialogue, controllable, distilled, prompting, and lightweight PLMs. We also implement $4$ efficient training strategies and provide $4$ generation objectives for pre-training new PLMs from scratch. To be unified, we design the interfaces to support the entire research pipeline (from data loading to training and evaluation), ensuring that each step can be fulfilled in a unified way. Despite the rich functionality, it is easy to use our library, either through the friendly Python API or command line. To validate the effectiveness of our library, we conduct extensive experiments and exemplify four types of research scenarios. The project is released at the link: https://github.com/RUCAIBox/TextBox.
translated by 谷歌翻译
我们提出了ShapeCrafter,这是一个用于递归文本条件3D形状生成的神经网络。生成文本条件的3D形状的现有方法会消耗整个文本提示,以在一个步骤中生成3D形状。但是,人类倾向于递归描述形状,我们可能以初始描述开始,并根据中间结果逐步添加细节。为了捕获此递归过程,我们引入了一种生成以初始短语为条件的3D形状分布的方法,该方法随着添加更多短语而逐渐发展。由于现有的数据集不足以训练这种方法,因此我们提出了Text2Shape ++,这是一个支持递归形状生成的369K形状文本对的大数据集。为了捕获通常用于完善形状描述的本地细节,我们建立在矢量定量的深层隐式函数的基础上,从而产生高质量形状的分布。结果表明,我们的方法可以生成与文本描述一致的形状,并且随着添加更多短语,形状逐渐发展。我们的方法支持形状编辑,外推,并可以在人机合作中为创意设计提供新的应用程序。
translated by 谷歌翻译
在这项工作中,我们提出了叙述,这是一种新颖的管道,可以以逼真的方式同时编辑肖像照明和观点。作为一种混合神经形态的面部模型,叙述了几何学感知生成方法和正常辅助物理面部模型的互补益处。简而言之,叙述首先将输入肖像转变为粗糙的几何形状,并采用神经渲染来产生类似于输入的图像,并产生令人信服的姿势变化。但是,反演步骤引入了不匹配,带来了较少面部细节的低质量图像。因此,我们进一步估计了师范的肖像,以增强粗糙的几何形状,从而创建高保真的物理面部模型。特别是,我们融合了神经和身体渲染,以补偿不完善的反转,从而产生了现实和视图一致的新颖透视图像。在重新阶段,以前的作品着重于单一视图肖像重新审议,但也忽略了不同观点之间的一致性,引导不稳定和不一致的照明效果以进行视图变化。我们通过将其多视图输入正常地图与物理面部模型统一,以解决此问题。叙事通过一致的正常地图进行重新进行重新,施加了跨视图的约束并表现出稳定且连贯的照明效果。我们在实验上证明,叙述在先前的工作中取得了更现实的,可靠的结果。我们进一步使用动画和样式转移工具进行介绍,从而分别或组合姿势变化,灯光变化,面部动画和样式转移,所有这些都以摄影质量为单位。我们展示了生动的自由视图面部动画以及3D感知可靠的风格化,可帮助促进各种AR/VR应用程序,例如虚拟摄影,3D视频会议和后期制作。
translated by 谷歌翻译
在许多情况下,需要精确的机器人操纵任务(插入,拧紧,精确选择,精确选择)。以前的方法在此类操作任务上实现了良好的性能。但是,这种方法通常需要乏味的校准或昂贵的传感器。 3D/RGB-D摄像机和扭矩/力传感器增加了机器人应用的成本,并且可能并不总是经济的。在这项工作中,我们旨在解决这些问题,但仅使用弱化和低成本的网络摄像头。我们提出了双眼对准学习(BAL),可以自动学习眼手协调和点对准能力以解决这四个任务。我们的工作重点是与未知的眼睛协调合作,并提出了自动执行眼镜校准的不同方法。该算法在模拟中进行了训练,并使用实用管道实现SIM2Real并在真实机器人上进行测试。我们的方法在四个任务上成本最低,取得了竞争性的效果。
translated by 谷歌翻译
本文实质上扩展了我们在ECCV上发布的工作,其中提出了中级攻击以提高某些基线对抗示例的可转移性。具体而言,我们提倡一个框架,在该框架中,建立了从中间级别差异(对抗特征和良性特征之间)的直接线性映射到建立对抗性示例的预测丢失。通过深入研究这种框架的核心组成部分,我们表明1)可以考虑各种线性回归模型以建立映射,2)最终获得的中间级别对手差异与与之相关。 3)可以通过随机初始化进行多次基线攻击来实现性能的进一步提高。此外,通过利用这些发现,我们在基于转移的$ \ ell_ \ infty $和$ \ ell_2 $攻击方面实现了新的最先进。我们的代码可在https://github.com/qizhangli/ila-plus-plus-lr上公开获取。
translated by 谷歌翻译
近年来,由于机器学习的进步,已经完成了无数关于智能机器人政策的最高级工作。然而,效率低下和缺乏转移能力阻碍了实用应用程序,尤其是在人类机器人协作中,少数快速学习和高灵活性成为一种努力。为了克服这一障碍,我们指的是一个“政策池”,其中包含可以轻松访问和重复使用的预训练技能。通过以灵活的顺序展开必要的技能,采用代理来管理“政策池”,取决于特定于任务的偏爱。可以从一个或几个人类专家示范中自动解释这种偏好。在这个层次结构的环境下,我们的算法能够在迷你招架环境中获得一个稀疏的奖励,多阶段的诀窍,只有一次演示,显示了有可能立即掌握人类教练的复杂机器人技能的潜力。此外,我们算法的先天质量还允许终身学习,使其成为一种多功能的代理。
translated by 谷歌翻译
机器学习模型,尤其是深层模型,可能无意地记住有关其培训数据的信息。因此,恶意攻击者可以通过Membership推论攻击或模型反转攻击攻击模型来窃取一些关于培训数据的财产。一些法规,如欧盟的GDPR,颁布了“遗忘的权利”,以保护用户的数据隐私,加强个人对数据的主权。因此,从培训的模型中删除培训数据信息已成为一个关键问题。在本文中,我们提出了一种基于GAN的算法来删除深层模型中的数据,与从头开始的再培训相比,显着提高了删除速度,特别是在复杂的场景中。我们已经尝试过五个常用的数据集,实验结果表明了我们的方法的效率。
translated by 谷歌翻译
如何在演示相对较大时更加普遍地进行模仿学习一直是强化学习(RL)的持续存在问题。糟糕的示威活动导致狭窄和偏见的日期分布,非马洛维亚人类专家演示使代理商难以学习,而过度依赖子最优轨迹可以使代理商努力提高其性能。为了解决这些问题,我们提出了一种名为TD3FG的新算法,可以平稳地过渡从专家到学习从经验中学习。我们的算法在Mujoco环境中实现了有限的有限和次优的演示。我们使用行为克隆来将网络作为参考动作发生器训练,并在丢失函数和勘探噪声方面使用它。这种创新可以帮助代理商从示威活动中提取先验知识,同时降低了糟糕的马尔科维亚特性的公正的不利影响。与BC +微调和DDPGFD方法相比,它具有更好的性能,特别是当示范相对有限时。我们调用我们的方法TD3FG意味着来自发电机的TD3。
translated by 谷歌翻译
近年来,机器学习神经网络深深地渗透到人们的生活中。作为便利性的价格,人们的私人信息也具有披露的风险。 “被遗忘的权利”是及时介绍的,规定,个人有权根据其同意撤销他们的个人信息处理活动的同意。为了解决这个问题,提出了机器无读,这允许模型擦除所有私人信息的内存。以前的研究,包括再培训和增量学习更新模型,通常占用额外的存储空间,或者很难应用于神经网络。我们的方法只需要对目标模型的权重进行小的扰动,并使其在用剩余数据子集接受训练的模型的方向上迭代,直到完全消除了未经注册数据到模型的贡献。在本文中,五个数据集的实验证明了我们对机器无线测井方法的有效性,而我们的方法比再培训快15倍。
translated by 谷歌翻译
Establishing open and general benchmarks has been a critical driving force behind the success of modern machine learning techniques. As machine learning is being applied to broader domains and tasks, there is a need to establish richer and more diverse benchmarks to better reflect the reality of the application scenarios. Graph learning is an emerging field of machine learning that urgently needs more and better benchmarks. To accommodate the need, we introduce Graph Learning Indexer (GLI), a benchmark curation platform for graph learning. In comparison to existing graph learning benchmark libraries, GLI highlights two novel design objectives. First, GLI is designed to incentivize \emph{dataset contributors}. In particular, we incorporate various measures to minimize the effort of contributing and maintaining a dataset, increase the usability of the contributed dataset, as well as encourage attributions to different contributors of the dataset. Second, GLI is designed to curate a knowledge base, instead of a plain collection, of benchmark datasets. We use multiple sources of meta information to augment the benchmark datasets with \emph{rich characteristics}, so that they can be easily selected and used in downstream research or development. The source code of GLI is available at \url{https://github.com/Graph-Learning-Benchmarks/gli}.
translated by 谷歌翻译